iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
AI & Data

進入AI的世界系列 第 26

➤D-26 核心應用☞自然語言處理-2(主要架構)

  • 分享至 

  • xImage
  •  

主要架構

階層分析架構

  1. 語法分析(Syntactic Analysis):
    利用語文法則去瞭解一個句子內,詞與詞之間應該有的正確順序、組合,與其一定程度遵守的「文法」。
  2. 語意分析(Semantic Analysis):
    瞭解一個句子內詞與詞彼此的關係,以及句子所欲「表達的涵義」。
  3. 由上而下的階層或架構:
    Ⅰ. 斷詞(Token):分析文本共有幾個詞(Words)(中文稱為字,英文稱為詞,後以詞統稱)。
    Ⅱ. 停用詞(Stop Words):那些詞是重要、值得分析的,哪些是可以忽視的,例如:the、of、a、for等。
    Ⅲ. 詞性標註(POS):句子內的詞,其屬性為何(形容詞、動詞、名詞)。
    Ⅳ. 詞向量(Word Vectors):分析每個詞自身的特徵。
    Ⅴ. 句法剖析(Parsing):瞭解這個句子結構、詞與詞彼此之間關係、哪個是主詞、哪個是受詞、哪個是謂詞。
    Ⅵ. 命名實體識別(Named Entity Retrieval, NER):句子內有哪些主要的專有名詞。
    Ⅶ. 分析句子主要意涵與意圖(Semantic):文本分類、摘要抽取、意圖分析等。

開發架構

  1. 基於法則的NLP(Rule Based NLP)開發架構:
    1980年代專家系統時期的主要方法,NLP處理要靠if、then、else的法則來處理。這是一種「硬式」法則,必須完全一致才可以啟動法則。只能應用在領域範圍較小、句法簡單、關鍵字少而明確的小型QA系統。
  2. 基於機器學習方法的NLP開發架構(ML Based NLP):
    Ⅰ. 利用直觀實用的知識取代法則:實際練習如何描述、如何騎腳踏車來取代瞭解說話的文法結構。
    Ⅱ. 由下而上(Bottom Up)取代由上而下(Top Down):機器學習法是由下面的實例(Instance)往上自然瞭解語言的法則,而法則學派則是由上面的「法則」指導下面的「語言產出」。「機器學派是人類真正練習說話的方式;法則學派是『語言學家』認為語言應該要有的結構」。
    Ⅲ. 由模仿取代理解:由大量語料的模仿人類真正說話的方式,來取代語言學家由法則的角度來瞭解、分析語言結構。
    Ⅳ. 「特徵工程」取代「法則」:「特徵工程」為機器學派在NLP中最重要的,對於語言文字的理解必須先由人類專家來篩選該文本具有的特徵。
    Ⅴ. 不同任務不同Model:有不同的特徵工程、不同選用的演算法。
    Ⅵ. 預處理的重視:傳統機器學習方法及演算法的NLP,非常注重文字的「預處理」,包括詞與句階段的所有語法分析工具與語意分析工具,例如:斷詞、句法剖析(Parsing)等。
  3. 基於深度學習的NLP開發架構(DL Based NLP):
    傳統機器學習演算法雖比法則學派在NLP上的處理更有效與精確,例如:非結構的語言辨識、語音生成、機器翻譯等。直到2015年後,一舉衝破障礙,在語音辨識、機器翻譯等方面達到95%正確率,逐漸取代傳統機器學習。
    Ⅰ. 特徵工程方面:少了人為特徵工程階段,深度學習本身會自己學習與執行文字特徵抽取與篩選。
    Ⅱ. 資料預處理方面:對於「預處理」(Preprocessing)並不是特別需要,由於其由大數據來學習,故在自我學習中,深度學習語言模型(Language Model)都已經自己學會並執行類似斷詞、停用詞、「詞性標註」,及「句法剖析」的工作。
    Ⅲ. 詞向量方面:最主要核心工具就是所謂的「詞向量」(Word Vector),取代傳統的「法則」與機器學習所重視的計算詞「出現頻率」(Word Frequency)特徵工程。深度學習在NLP主要問題是需要非常大量的訓練資料,也需要非常大量的運算力及訓練成本,例如:BERT、GPT-3等。
  4. 混合型NLP開發架構(Mixed NLP Framework):
    未來趨勢會是三種開發架構之結合的「混合型NLP模式」,例如:深度學習主攻下層「特徵抽取」(Feature Extracting),加上法則學派的「知識圖譜」、「專家系統」來增加語法結構性及上層知識邏輯推理的正確性。也可以再加上「資訊抽取」及「分類」非常有效的SVM、隨機森林、貝氏推理等機器學習法則來提升整體效率。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-25 核心應用☞自然語言處理-1(基本概念與應用)
下一篇
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言